代码(LLMS4Code)在代码生成任务中出色的大型语言模型(LLMS4Code)在巨大的软件开发负担中释放开发人员的承诺。尽管如此,由于训练过程中嵌入的敏感信息的潜在泄漏(称为记忆问题),这些模型已被证明遭受了明显的隐私风险。解决此问题对于确保隐私合规性和提高用户信任至关重要,但是到目前为止,文献中的专门研究缺乏关注这一特定方向的专门研究。最近,通过使模型能够“忘记”敏感信息而无需完全重新训练,与传统的数据清洁方法相比,机器的学习是一种有希望的解决方案。在本文中,我们从经验上评估了未学习技术来解决LLMS4Code中隐私问题的有效性。具体来说,我们研究了三种最先进的学习算法和三种众所周知的开源LLMS4Code,这是在一个基准上考虑的,该基准都考虑到要忘记的隐私数据以及这些模型的代码生成capabilite。结果表明,可以通过机器学习来减轻LLMS4CODE的隐私问题,同时维护代码生成功能,这是可行的。我们还剖析了学习后的隐私保护/泄漏形式,并观察到从直接泄漏到间接泄漏有所转变,这突显了解决这种风险的未来研究的需求。
主要关键词